{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "d:\\Miniconda\\envs\\geo\\lib\\site-packages\\numpy\\_distributor_init.py:30: UserWarning: loaded more than 1 DLL from .libs:\n",
      "d:\\Miniconda\\envs\\geo\\lib\\site-packages\\numpy\\.libs\\libopenblas.FB5AE2TYXYH2IJRDKGDGQ3XBKLKTF43H.gfortran-win_amd64.dll\n",
      "d:\\Miniconda\\envs\\geo\\lib\\site-packages\\numpy\\.libs\\libopenblas64__v0.3.21-gcc_10_3_0.dll\n",
      "  warnings.warn(\"loaded more than 1 DLL from .libs:\"\n"
     ]
    }
   ],
   "source": [
    "from transformers import AutoTokenizer\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "BertTokenizerFast(name_or_path='D:/code/models/huggingface/roberta-base-finetuned-dianping-chinese', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={\n",
       "\t0: AddedToken(\"[PAD]\", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),\n",
       "\t100: AddedToken(\"[UNK]\", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),\n",
       "\t101: AddedToken(\"[CLS]\", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),\n",
       "\t102: AddedToken(\"[SEP]\", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),\n",
       "\t103: AddedToken(\"[MASK]\", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),\n",
       "}"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 本地模型信息\n",
    "model_name = \"D:/code/models/huggingface/roberta-base-finetuned-dianping-chinese\"\n",
    "tokenizer  =  AutoTokenizer.from_pretrained(model_name)\n",
    "tokenizer"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "('D:/code/models/huggingface/reberta-tokenizer\\\\tokenizer_config.json',\n",
       " 'D:/code/models/huggingface/reberta-tokenizer\\\\special_tokens_map.json',\n",
       " 'D:/code/models/huggingface/reberta-tokenizer\\\\vocab.txt',\n",
       " 'D:/code/models/huggingface/reberta-tokenizer\\\\added_tokens.json',\n",
       " 'D:/code/models/huggingface/reberta-tokenizer\\\\tokenizer.json')"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 存放模型到本地的一个地址上\n",
    "tokenizer.save_pretrained(\"D:/code/models/huggingface/reberta-tokenizer\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "newTokenizer =  AutoTokenizer.from_pretrained(\"D:/code/models/huggingface/reberta-tokenizer\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['我', '是', '一', '个', '小', '辣', '椒', '，', '我', '每', '天', '都', '吃', '辣', '椒']"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 分词器处理分词\n",
    "text = \"我是一个小辣椒，我每天都吃辣椒\"\n",
    "text2 = \"请问你最爱吃的食物是什么？\"\n",
    "tokens = newTokenizer.tokenize(text)\n",
    "tokens"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'睽': 4727,\n",
       " '憫': 2738,\n",
       " '##蜥': 19117,\n",
       " '景': 3250,\n",
       " '##黄': 20999,\n",
       " '##球': 17470,\n",
       " 'pass': 9703,\n",
       " '猩': 4342,\n",
       " 'contextlink': 11780,\n",
       " '##亵': 13838,\n",
       " '200mm': 13166,\n",
       " '贯': 6581,\n",
       " '##ga': 8676,\n",
       " '##署': 18449,\n",
       " '吝': 1410,\n",
       " '值': 966,\n",
       " '摒': 3034,\n",
       " '##伝': 13891,\n",
       " '##洲': 16885,\n",
       " '披': 2847,\n",
       " '##dot': 12402,\n",
       " '##%': 13321,\n",
       " '##夏': 14966,\n",
       " '碍': 4809,\n",
       " '柯': 3392,\n",
       " '*': 115,\n",
       " '##栋': 16463,\n",
       " '##陰': 20431,\n",
       " '##吾': 14491,\n",
       " '攔': 3105,\n",
       " '##登': 17690,\n",
       " '##do': 8828,\n",
       " '##努': 14279,\n",
       " '##凪': 14187,\n",
       " '申': 4509,\n",
       " '胤': 5530,\n",
       " '##彦': 15561,\n",
       " 'swissinfo': 10661,\n",
       " '##蜊': 19106,\n",
       " '伞': 835,\n",
       " '黛': 7950,\n",
       " 'shop': 9926,\n",
       " '##录': 15554,\n",
       " '蝎': 6070,\n",
       " '维': 5335,\n",
       " '##栾': 16478,\n",
       " '##綫': 18259,\n",
       " '##ura': 10238,\n",
       " '噬': 1693,\n",
       " '##淬': 16973,\n",
       " '##爷': 17324,\n",
       " '501': 11884,\n",
       " '##表': 19191,\n",
       " '郑': 6948,\n",
       " '##類': 20603,\n",
       " '鬧': 7785,\n",
       " '##sk': 8998,\n",
       " '##まて': 10737,\n",
       " '蠢': 6111,\n",
       " '##ved': 11667,\n",
       " '##04': 9099,\n",
       " '##鼓': 21018,\n",
       " 'hktvmall': 9688,\n",
       " 'fe': 12605,\n",
       " 'daily': 10210,\n",
       " '##邊': 19977,\n",
       " '##风': 20656,\n",
       " '紋': 5151,\n",
       " '淑': 3902,\n",
       " '##镗': 20317,\n",
       " '″': 346,\n",
       " '桧': 3443,\n",
       " '苍': 5721,\n",
       " '痊': 4571,\n",
       " '膩': 5611,\n",
       " '愧': 2700,\n",
       " '##塔': 14906,\n",
       " '课': 6440,\n",
       " '汲': 3744,\n",
       " '##臆': 18678,\n",
       " '##虾': 19064,\n",
       " '##闡': 20360,\n",
       " '嗓': 1624,\n",
       " '##88': 8544,\n",
       " 'apple': 8350,\n",
       " '##˚': 13378,\n",
       " '##淹': 16979,\n",
       " '##北': 14323,\n",
       " '邝': 6927,\n",
       " '##舎': 18708,\n",
       " 'edu': 9827,\n",
       " '##wei': 12320,\n",
       " '##哭': 14583,\n",
       " 'hi': 8913,\n",
       " '帯': 2377,\n",
       " '373': 12779,\n",
       " '##鱉': 20876,\n",
       " '疖': 4544,\n",
       " '##鏗': 20181,\n",
       " '##审': 15201,\n",
       " '##oka': 12279,\n",
       " '##廁': 15495,\n",
       " '佞': 870,\n",
       " '##幼': 15462,\n",
       " '##胭': 18591,\n",
       " 'tripadvisor': 8194,\n",
       " '現': 4412,\n",
       " '##佘': 13921,\n",
       " '##詛': 19326,\n",
       " '僮': 1016,\n",
       " '臬': 5633,\n",
       " '##犬': 17362,\n",
       " '钜': 7161,\n",
       " '##辟': 19849,\n",
       " '##﹒': 21059,\n",
       " '沟': 3765,\n",
       " '##尔': 15266,\n",
       " '##藜': 19027,\n",
       " '預': 7521,\n",
       " '##菠': 18890,\n",
       " 'aws': 12014,\n",
       " '挂': 2899,\n",
       " 'lv': 8289,\n",
       " '##代': 13864,\n",
       " '##酐': 20039,\n",
       " 'jennifer': 12652,\n",
       " '##ノ': 13692,\n",
       " '##tc': 10149,\n",
       " '瑕': 4442,\n",
       " '##force': 10488,\n",
       " '##電': 20499,\n",
       " '##え': 11661,\n",
       " '##紀': 18202,\n",
       " '软': 6763,\n",
       " '？': 8043,\n",
       " '##ب': 13428,\n",
       " '##ッ': 13688,\n",
       " '##綏': 18250,\n",
       " '驒': 7708,\n",
       " '##朽': 16380,\n",
       " '１５': 11213,\n",
       " '模': 3563,\n",
       " '##賣': 19603,\n",
       " '##韌': 20558,\n",
       " 'bl': 10353,\n",
       " '据': 2945,\n",
       " '掂': 2953,\n",
       " 'online': 8314,\n",
       " 'code': 8700,\n",
       " '距': 6655,\n",
       " '哆': 1504,\n",
       " '么': 720,\n",
       " '##can': 12632,\n",
       " '##帐': 15419,\n",
       " '159': 9699,\n",
       " '##夫': 14980,\n",
       " 'radio': 11034,\n",
       " '骜': 7748,\n",
       " '搜': 3017,\n",
       " '諮': 6324,\n",
       " '2013': 8138,\n",
       " 'ios7': 13027,\n",
       " '↔': 372,\n",
       " '腴': 5590,\n",
       " '##省': 17746,\n",
       " '##猥': 17398,\n",
       " '蟋': 6094,\n",
       " '昊': 3207,\n",
       " '##mhz': 9932,\n",
       " '##ware': 10534,\n",
       " '##ma': 8404,\n",
       " '選': 6908,\n",
       " '諡': 6319,\n",
       " '鹂': 7897,\n",
       " '##乾': 13803,\n",
       " '##咫': 14546,\n",
       " '羁': 5396,\n",
       " '懈': 2745,\n",
       " 'icon': 9734,\n",
       " '##宗': 15191,\n",
       " '##盱': 17739,\n",
       " '鑽': 7148,\n",
       " '899': 12612,\n",
       " '##罄': 18435,\n",
       " '亿': 783,\n",
       " 'f4': 11464,\n",
       " '##tle': 11283,\n",
       " 'г': 236,\n",
       " '##珥': 17462,\n",
       " '胁': 5516,\n",
       " '蠣': 6112,\n",
       " '##鱸': 20880,\n",
       " 'wii': 11372,\n",
       " '蛊': 6027,\n",
       " '237': 10775,\n",
       " 'macd': 10851,\n",
       " 'かある': 10070,\n",
       " '睞': 4716,\n",
       " '絮': 5185,\n",
       " '飯': 7613,\n",
       " '##品': 14558,\n",
       " '墊': 1865,\n",
       " '##碼': 17883,\n",
       " '##裊': 19222,\n",
       " '騙': 7700,\n",
       " '##セ': 13686,\n",
       " '##及': 14407,\n",
       " '詳': 6284,\n",
       " '##檗': 16651,\n",
       " '睫': 4724,\n",
       " '##滌': 17054,\n",
       " '##騎': 20754,\n",
       " '偵': 980,\n",
       " 'python': 9030,\n",
       " '##目': 17737,\n",
       " '##脅': 18602,\n",
       " '=': 134,\n",
       " '##绿': 18401,\n",
       " '##虑': 19048,\n",
       " '##逢': 19921,\n",
       " '##糅': 18184,\n",
       " '##鬥': 20841,\n",
       " '##900': 10589,\n",
       " '聚': 5471,\n",
       " '##絞': 18237,\n",
       " '##邺': 19999,\n",
       " 'months': 10195,\n",
       " '[unused6]': 6,\n",
       " '蹺': 6705,\n",
       " '漬': 4036,\n",
       " '瘢': 4605,\n",
       " 'take': 10985,\n",
       " 'uhz': 11599,\n",
       " '##運': 19937,\n",
       " '##頌': 20577,\n",
       " '##ion': 8410,\n",
       " '##ß': 13361,\n",
       " '##解': 19294,\n",
       " '##ves': 11084,\n",
       " '吋': 1397,\n",
       " '簷': 5085,\n",
       " '##ray': 10009,\n",
       " 'playstation': 11026,\n",
       " '鼓': 7961,\n",
       " '繫': 5258,\n",
       " '##rix': 13208,\n",
       " '##姬': 15067,\n",
       " '##赝': 19670,\n",
       " '頒': 7523,\n",
       " '##master': 12959,\n",
       " '##象': 19553,\n",
       " '沽': 3782,\n",
       " '##婢': 15100,\n",
       " '瞒': 4737,\n",
       " '##澹': 17136,\n",
       " '蚩': 6019,\n",
       " '譬': 6357,\n",
       " '屡': 2249,\n",
       " 'yi': 11242,\n",
       " 'bar': 9054,\n",
       " '##瞬': 17803,\n",
       " '##綜': 18255,\n",
       " '##gate': 11695,\n",
       " '##骨': 20812,\n",
       " '古': 1367,\n",
       " '##尚': 15270,\n",
       " '恕': 2609,\n",
       " '袂': 6146,\n",
       " '##块': 14836,\n",
       " '##屏': 15299,\n",
       " 'ヒ': 620,\n",
       " '聂': 5462,\n",
       " '##疾': 17622,\n",
       " '債': 1002,\n",
       " '0fork': 8453,\n",
       " '##囟': 14784,\n",
       " 'ace': 12192,\n",
       " '##屬': 15310,\n",
       " '##迸': 19895,\n",
       " '##鄲': 20032,\n",
       " '##草': 18827,\n",
       " '缱': 5372,\n",
       " '##ment': 8631,\n",
       " '漂': 4023,\n",
       " '##iki': 12434,\n",
       " '積': 4948,\n",
       " '缘': 5357,\n",
       " '胜': 5526,\n",
       " '裹': 6181,\n",
       " 'ｆ': 8056,\n",
       " 'nike': 8702,\n",
       " '絳': 5188,\n",
       " '##粱': 18175,\n",
       " '竅': 4986,\n",
       " '螃': 6083,\n",
       " 'ღ': 287,\n",
       " '##ama': 11135,\n",
       " '##data': 11792,\n",
       " '##250': 12629,\n",
       " '##籐': 18151,\n",
       " 'อ': 282,\n",
       " '靶': 7487,\n",
       " '##繞': 18311,\n",
       " '萸': 5860,\n",
       " '##成': 15825,\n",
       " '##艺': 18743,\n",
       " '##●': 9037,\n",
       " '##詳': 19341,\n",
       " '##兲': 14124,\n",
       " '燦': 4247,\n",
       " '##悬': 15704,\n",
       " '楨': 3509,\n",
       " 'create': 12432,\n",
       " 'c919': 13136,\n",
       " '##址': 14827,\n",
       " '##禿': 17955,\n",
       " '95': 8287,\n",
       " '##谌': 19508,\n",
       " '畳': 4532,\n",
       " '##张': 15533,\n",
       " '鸪': 7889,\n",
       " '咪': 1488,\n",
       " 'gary': 11560,\n",
       " '##嶺': 15384,\n",
       " '##曜': 16340,\n",
       " '受': 1358,\n",
       " '##嚷': 14771,\n",
       " '##low': 10962,\n",
       " '须': 7557,\n",
       " 'frank': 10379,\n",
       " '##枉': 16413,\n",
       " '##黔': 21005,\n",
       " 'ﾄ': 8092,\n",
       " '##ィ': 12403,\n",
       " '铜': 7198,\n",
       " 'carlo': 12628,\n",
       " 'sputniknews': 11376,\n",
       " '紧': 5165,\n",
       " '##ホ': 12889,\n",
       " '##躏': 19771,\n",
       " '扪': 2811,\n",
       " '##kk': 12693,\n",
       " '闇': 7294,\n",
       " 'arm': 9498,\n",
       " '##▪': 13607,\n",
       " '##魅': 20848,\n",
       " '##ving': 10369,\n",
       " '皙': 4647,\n",
       " '下': 678,\n",
       " '##掩': 16030,\n",
       " '##徽': 15608,\n",
       " '订': 6370,\n",
       " '懇': 2744,\n",
       " '##噻': 14756,\n",
       " '##啸': 14637,\n",
       " 'd1': 11537,\n",
       " '##巨': 15399,\n",
       " '##慾': 15782,\n",
       " 'tour': 10181,\n",
       " 'azure': 10421,\n",
       " 'yesstyle': 12983,\n",
       " '##劵': 14286,\n",
       " '绒': 5309,\n",
       " '禍': 4884,\n",
       " '##unch': 11294,\n",
       " '磨': 4836,\n",
       " '##浚': 16909,\n",
       " 'も': 571,\n",
       " '乏': 726,\n",
       " '熹': 4231,\n",
       " '──': 8297,\n",
       " '##□': 13606,\n",
       " '##僵': 14075,\n",
       " '##嗷': 14700,\n",
       " 'display': 11830,\n",
       " '##涇': 16923,\n",
       " '##澜': 17130,\n",
       " '##睏': 17768,\n",
       " '##菊': 18882,\n",
       " '##lie': 10158,\n",
       " '120': 8290,\n",
       " '鬟': 7781,\n",
       " 'weeks': 11973,\n",
       " '穢': 4951,\n",
       " '##饋': 20694,\n",
       " '##ⅱ': 13520,\n",
       " '桩': 3445,\n",
       " '喹': 1614,\n",
       " '範': 5061,\n",
       " '旬': 3194,\n",
       " 'hello': 8701,\n",
       " 'where': 11703,\n",
       " '腔': 5579,\n",
       " '##逻': 19929,\n",
       " '##馥': 20734,\n",
       " '##舗': 18713,\n",
       " '##谯': 19536,\n",
       " '勐': 1238,\n",
       " '鬢': 7782,\n",
       " 'union': 12161,\n",
       " '雯': 7435,\n",
       " '佔': 861,\n",
       " '茼': 5766,\n",
       " '葷': 5879,\n",
       " '##碍': 17866,\n",
       " '吽': 1433,\n",
       " '##ola': 12653,\n",
       " '##检': 16523,\n",
       " '##纽': 18351,\n",
       " '##侃': 13944,\n",
       " '墾': 1879,\n",
       " '胸': 5541,\n",
       " 'mhz': 12747,\n",
       " 'else': 11740,\n",
       " '1941': 9327,\n",
       " '##彙': 15556,\n",
       " '##属': 15304,\n",
       " '##〕': 13662,\n",
       " '涵': 3891,\n",
       " '##桓': 16491,\n",
       " '瀛': 4109,\n",
       " '骋': 7740,\n",
       " 'beyond': 12352,\n",
       " '##潧': 17115,\n",
       " '驳': 7722,\n",
       " '##400': 10765,\n",
       " '膺': 5613,\n",
       " '##嬪': 15143,\n",
       " '##琰': 17487,\n",
       " '噼': 1700,\n",
       " 'ipod': 9391,\n",
       " '##錫': 20152,\n",
       " '##菡': 18891,\n",
       " 'more': 8384,\n",
       " '##侑': 13951,\n",
       " '貂': 6503,\n",
       " '##rder': 12658,\n",
       " '##床': 15471,\n",
       " 'win': 9769,\n",
       " '##ﾙ': 21118,\n",
       " '##饱': 20710,\n",
       " '##ala': 11658,\n",
       " '爆': 4255,\n",
       " '签': 5041,\n",
       " '膚': 5604,\n",
       " '廠': 2449,\n",
       " 'ワ': 640,\n",
       " '墅': 1863,\n",
       " '觉': 6230,\n",
       " '鱿': 7825,\n",
       " 'jp': 9348,\n",
       " '169': 9853,\n",
       " 'への': 11021,\n",
       " '哗': 1517,\n",
       " '柑': 3379,\n",
       " '逸': 6871,\n",
       " '籁': 5090,\n",
       " 'オーフン5': 11810,\n",
       " 'dota': 11636,\n",
       " '##dium': 12787,\n",
       " 'pure': 13179,\n",
       " '##α': 13380,\n",
       " '##hua': 13074,\n",
       " '##仮': 13870,\n",
       " '##nda': 12715,\n",
       " '煙': 4206,\n",
       " '核': 3417,\n",
       " '##休': 13885,\n",
       " '枸': 3375,\n",
       " '筋': 5025,\n",
       " 'ling': 10061,\n",
       " '##卤': 14364,\n",
       " '##嘹': 14733,\n",
       " '##啫': 14628,\n",
       " '##嬰': 15144,\n",
       " '##念': 15630,\n",
       " '##戮': 15838,\n",
       " '##状': 17364,\n",
       " '浓': 3849,\n",
       " '##務': 14300,\n",
       " '荊': 5771,\n",
       " '锑': 7230,\n",
       " 'systems': 12451,\n",
       " '##慳': 15778,\n",
       " '渾': 3954,\n",
       " '##溃': 17028,\n",
       " '鴕': 7858,\n",
       " '##毎': 16736,\n",
       " '##給': 18240,\n",
       " 'apk': 8543,\n",
       " '##•': 13499,\n",
       " '渐': 3933,\n",
       " '纪': 5279,\n",
       " '##銑': 20125,\n",
       " '##渦': 17002,\n",
       " '##ᅢ': 13470,\n",
       " '##‧': 13501,\n",
       " '##鑰': 20202,\n",
       " '2a': 11646,\n",
       " '##到': 14225,\n",
       " 'ッ': 610,\n",
       " '##亜': 13821,\n",
       " '絃': 5174,\n",
       " '##012': 12037,\n",
       " '##朋': 16358,\n",
       " '骊': 7739,\n",
       " 'ktv': 8894,\n",
       " 'family': 10072,\n",
       " '竟': 4994,\n",
       " '##景': 16307,\n",
       " '##子': 15151,\n",
       " '墀': 1861,\n",
       " '##埋': 14870,\n",
       " '準': 3976,\n",
       " '##ugh': 12667,\n",
       " '##╮': 13592,\n",
       " '##unge': 13077,\n",
       " 'fly': 13010,\n",
       " '婴': 2048,\n",
       " '##♀': 13624,\n",
       " '##wt': 12271,\n",
       " '樁': 3555,\n",
       " '##瘦': 17664,\n",
       " '##脖': 18613,\n",
       " '睬': 4725,\n",
       " '##悶': 15710,\n",
       " '##致': 18693,\n",
       " '##gence': 12932,\n",
       " 'ц': 254,\n",
       " '##汝': 16791,\n",
       " '##法': 16848,\n",
       " 'になります': 11028,\n",
       " '坝': 1782,\n",
       " 'いた': 12312,\n",
       " '116': 9070,\n",
       " 'tf': 12719,\n",
       " '##晨': 16304,\n",
       " '##瓯': 17541,\n",
       " '豹': 6501,\n",
       " '##噔': 14740,\n",
       " '##拙': 15930,\n",
       " '##跛': 19711,\n",
       " 'ならワークケートへ': 12154,\n",
       " '##重': 20085,\n",
       " 'npc': 9811,\n",
       " 'qs': 11974,\n",
       " 'なとはお': 12143,\n",
       " '4k': 8574,\n",
       " '##orage': 12669,\n",
       " '##浆': 16898,\n",
       " '##焖': 17243,\n",
       " '庖': 2420,\n",
       " '痈': 4569,\n",
       " '瘤': 4606,\n",
       " '記': 6250,\n",
       " 'money': 10348,\n",
       " '##dra': 12753,\n",
       " '嶽': 2329,\n",
       " '##喃': 14643,\n",
       " 'china': 8873,\n",
       " 'jessica': 11731,\n",
       " '导': 2193,\n",
       " '##弄': 15519,\n",
       " 'brian': 11754,\n",
       " '##宿': 15219,\n",
       " '琊': 4418,\n",
       " '##噹': 14755,\n",
       " '##烽': 17239,\n",
       " '##甲': 17565,\n",
       " '##绣': 18380,\n",
       " '##χ': 13400,\n",
       " ',': 117,\n",
       " '##ico': 10641,\n",
       " '餵': 7633,\n",
       " '祜': 4866,\n",
       " '##tton': 11190,\n",
       " '[PAD]': 0,\n",
       " '##募': 14304,\n",
       " '赴': 6626,\n",
       " 'charles': 10403,\n",
       " '⑸': 419,\n",
       " 'iphone6': 9878,\n",
       " '##拾': 15953,\n",
       " '##楞': 16563,\n",
       " '##?': 13337,\n",
       " '##sit': 12618,\n",
       " '##卸': 14376,\n",
       " 'jane': 11909,\n",
       " 'cam': 12722,\n",
       " '##遶': 19963,\n",
       " '206': 9899,\n",
       " '|': 170,\n",
       " '渦': 3945,\n",
       " 'ctrip': 8223,\n",
       " '[unused55]': 55,\n",
       " '一': 671,\n",
       " '姆': 1990,\n",
       " '噓': 1682,\n",
       " '濘': 4087,\n",
       " '诡': 6417,\n",
       " '306': 10576,\n",
       " 'au': 10677,\n",
       " '##决': 14161,\n",
       " '##唷': 14607,\n",
       " '##抄': 15883,\n",
       " '嫡': 2072,\n",
       " '泣': 3798,\n",
       " '##梅': 16506,\n",
       " 'has': 11325,\n",
       " '##温': 17003,\n",
       " '##邕': 19982,\n",
       " '##鑑': 20198,\n",
       " 'ノ': 618,\n",
       " 'ر': 266,\n",
       " '##荼': 18852,\n",
       " '##峋': 15338,\n",
       " '芈': 5690,\n",
       " '##凑': 14179,\n",
       " '##神': 17925,\n",
       " '##ea': 10073,\n",
       " '##ة': 13429,\n",
       " '##nger': 11533,\n",
       " '##匠': 14326,\n",
       " '桑': 3433,\n",
       " '諸': 6328,\n",
       " '缚': 5359,\n",
       " '酯': 6994,\n",
       " '魁': 7788,\n",
       " 'sm': 9158,\n",
       " '##ak': 9896,\n",
       " '730': 11868,\n",
       " '丼': 713,\n",
       " '贪': 6576,\n",
       " '##❤': 10269,\n",
       " '枷': 3374,\n",
       " '##俞': 13982,\n",
       " '##敎': 16186,\n",
       " '提': 2990,\n",
       " '##誣': 19355,\n",
       " '显': 3227,\n",
       " '9000': 9117,\n",
       " 'ltxsw': 8793,\n",
       " 'diary': 12940,\n",
       " '依': 898,\n",
       " 'qt': 12933,\n",
       " '砼': 4792,\n",
       " '##功': 14273,\n",
       " '露': 7463,\n",
       " '挙': 2906,\n",
       " '##炯': 17210,\n",
       " '賈': 6537,\n",
       " 'tcl': 9443,\n",
       " '##贍': 19616,\n",
       " '衛': 6127,\n",
       " 'group': 9051,\n",
       " '##犍': 17358,\n",
       " '枭': 3368,\n",
       " '##恩': 15674,\n",
       " '##曼': 16351,\n",
       " '1980': 8499,\n",
       " '311': 10256,\n",
       " '僻': 1020,\n",
       " '駅': 7686,\n",
       " '412': 12346,\n",
       " '##あります': 10700,\n",
       " 'match': 12528,\n",
       " '##凭': 14188,\n",
       " 'wi': 8541,\n",
       " '晃': 3230,\n",
       " '堃': 1829,\n",
       " '葚': 5866,\n",
       " 'topios9': 12994,\n",
       " '45': 8208,\n",
       " '112': 9017,\n",
       " '辕': 6784,\n",
       " '01': 8146,\n",
       " '屿': 2257,\n",
       " '扼': 2822,\n",
       " '##秧': 17970,\n",
       " '屹': 2256,\n",
       " '攥': 3114,\n",
       " '别': 1166,\n",
       " '##萘': 18906,\n",
       " '##かる': 11571,\n",
       " '蹈': 6688,\n",
       " '輩': 6742,\n",
       " '##懑': 15806,\n",
       " '癜': 4620,\n",
       " '│': 429,\n",
       " '炮': 4152,\n",
       " '珣': 4404,\n",
       " 'abc': 8425,\n",
       " 'messenger': 11892,\n",
       " '##hy': 9943,\n",
       " '坟': 1784,\n",
       " '##cake': 12814,\n",
       " '倾': 967,\n",
       " '##④': 13559,\n",
       " '##罕': 18440,\n",
       " '裴': 6179,\n",
       " '##ties': 11199,\n",
       " '##崖': 15361,\n",
       " '噢': 1688,\n",
       " '輛': 6739,\n",
       " '##ews': 13024,\n",
       " '##腌': 18631,\n",
       " '##窿': 18041,\n",
       " '##き': 8816,\n",
       " 'ge': 10234,\n",
       " '恃': 2603,\n",
       " '##窒': 18023,\n",
       " '瑶': 4457,\n",
       " '##鳶': 20913,\n",
       " '喲': 1609,\n",
       " 'しました': 10182,\n",
       " '褪': 6192,\n",
       " '嫖': 2069,\n",
       " '晔': 3237,\n",
       " '产': 772,\n",
       " 'em': 13152,\n",
       " '##顆': 20595,\n",
       " 'think': 12553,\n",
       " '##冻': 14165,\n",
       " '棵': 3484,\n",
       " '版': 4276,\n",
       " '##贏': 19617,\n",
       " '##遷': 19964,\n",
       " '##詫': 19334,\n",
       " '杵': 3348,\n",
       " '##鈺': 20109,\n",
       " '皇': 4640,\n",
       " '207': 10194,\n",
       " '##來': 13946,\n",
       " '##57': 9647,\n",
       " '##口': 14423,\n",
       " '厄': 1323,\n",
       " '彷': 2513,\n",
       " '##官': 15192,\n",
       " '##hen': 11602,\n",
       " '旗': 3186,\n",
       " '≧': 397,\n",
       " 'ᵃ': 330,\n",
       " '##筷': 18096,\n",
       " '##蜗': 19111,\n",
       " '葺': 5880,\n",
       " '##徼': 15607,\n",
       " '齁': 7967,\n",
       " '牍': 4278,\n",
       " '##text': 11816,\n",
       " 'pepper': 11861,\n",
       " '武': 3636,\n",
       " '##next': 12397,\n",
       " '##吊': 14453,\n",
       " '##捡': 15996,\n",
       " '##某': 16435,\n",
       " '##漩': 17090,\n",
       " '鸞': 7880,\n",
       " '##聾': 18539,\n",
       " '羔': 5402,\n",
       " 'mit': 9315,\n",
       " '##掂': 16010,\n",
       " '1936': 9481,\n",
       " '##ash': 9889,\n",
       " '兑': 1050,\n",
       " '##den': 10241,\n",
       " '觊': 6231,\n",
       " '褶': 6195,\n",
       " '##ก': 13442,\n",
       " '##鲨': 20892,\n",
       " '##冏': 14144,\n",
       " 'von': 12310,\n",
       " '##慫': 15775,\n",
       " '##渥': 17001,\n",
       " 'index': 9405,\n",
       " '慷': 2724,\n",
       " '緯': 5229,\n",
       " '羟': 5405,\n",
       " '赁': 6595,\n",
       " '##荘': 18834,\n",
       " '##諸': 19385,\n",
       " 'suite': 11420,\n",
       " '喺': 1615,\n",
       " '谋': 6450,\n",
       " '▌♥': 9601,\n",
       " '56': 8259,\n",
       " '##羧': 18467,\n",
       " '##逕': 19912,\n",
       " '213': 10431,\n",
       " '##報': 14898,\n",
       " '硕': 4798,\n",
       " 'fgo': 11401,\n",
       " '##−': 13529,\n",
       " '##pmlast': 12138,\n",
       " '##hur': 13190,\n",
       " '##初': 14216,\n",
       " '└': 435,\n",
       " '攏': 3103,\n",
       " '##貅': 19561,\n",
       " '##昶': 16282,\n",
       " 'sms': 12990,\n",
       " '镕': 7258,\n",
       " '##喎': 14650,\n",
       " '##beth': 12101,\n",
       " '##貰': 19578,\n",
       " '彻': 2515,\n",
       " '##潭': 17116,\n",
       " '嚥': 1710,\n",
       " '##咲': 14551,\n",
       " '##憋': 15785,\n",
       " '仕': 799,\n",
       " '##跤': 19715,\n",
       " 'ⅴ': 367,\n",
       " '##啾': 14640,\n",
       " '长': 7270,\n",
       " 'udn': 9782,\n",
       " '##ワ': 13701,\n",
       " '##甌': 17546,\n",
       " '##飪': 20669,\n",
       " '滸': 4019,\n",
       " 'microsoft': 8775,\n",
       " '##羲': 18471,\n",
       " '屜': 2246,\n",
       " '##偵': 14037,\n",
       " '##臘': 18683,\n",
       " '##仙': 13860,\n",
       " '嬅': 2079,\n",
       " '蝇': 6066,\n",
       " '##嫘': 15127,\n",
       " '偌': 972,\n",
       " '瀾': 4117,\n",
       " 'pro': 8376,\n",
       " '釀': 7021,\n",
       " '##趋': 19690,\n",
       " '##哆': 14561,\n",
       " '忿': 2576,\n",
       " '##钊': 20210,\n",
       " '##蟀': 19148,\n",
       " '##鑼': 20204,\n",
       " '觸': 6240,\n",
       " 'xa': 12626,\n",
       " '激': 4080,\n",
       " '語': 6295,\n",
       " '貫': 6518,\n",
       " '##颱': 20650,\n",
       " 'switch': 10746,\n",
       " 'pixstyleme3c': 8382,\n",
       " 'jj': 11095,\n",
       " '##塊': 14903,\n",
       " '带': 2372,\n",
       " '呈': 1439,\n",
       " 'global': 8878,\n",
       " '##栄': 16458,\n",
       " '坷': 1794,\n",
       " '799': 10882,\n",
       " '##ゅ': 13675,\n",
       " '##切': 14204,\n",
       " '##圓': 14812,\n",
       " '##隈': 20442,\n",
       " '塗': 1850,\n",
       " '叠': 1363,\n",
       " '##夾': 14990,\n",
       " '瑚': 4445,\n",
       " '814': 11273,\n",
       " '度': 2428,\n",
       " '俨': 929,\n",
       " '鲑': 7829,\n",
       " '##tional': 11852,\n",
       " '##nis': 12334,\n",
       " '1300': 8925,\n",
       " '##♬': 13631,\n",
       " '淬': 3916,\n",
       " '⒉': 421,\n",
       " '025': 11900,\n",
       " '哮': 1527,\n",
       " '##颠': 20642,\n",
       " '588': 12426,\n",
       " '##芋': 18749,\n",
       " '丟': 694,\n",
       " '舂': 5642,\n",
       " 'limited': 10424,\n",
       " '##т': 13417,\n",
       " '##峦': 15344,\n",
       " '##润': 16940,\n",
       " '##祈': 17914,\n",
       " '礁': 4842,\n",
       " '痣': 4582,\n",
       " '疤': 4552,\n",
       " '彰': 2511,\n",
       " '獻': 4368,\n",
       " '孃': 2093,\n",
       " '##360': 10408,\n",
       " '貸': 6526,\n",
       " '百': 4636,\n",
       " '霁': 7445,\n",
       " 'database': 12435,\n",
       " '##醮': 20074,\n",
       " '惆': 2659,\n",
       " '涙': 3874,\n",
       " 'kbs': 10655,\n",
       " '626': 12463,\n",
       " '##⦿': 13644,\n",
       " '##技': 15882,\n",
       " '吟': 1412,\n",
       " '皋': 4642,\n",
       " '##奂': 14991,\n",
       " '##擺': 16156,\n",
       " '播': 3064,\n",
       " '##杼': 16407,\n",
       " '##簡': 18137,\n",
       " 'order': 11156,\n",
       " '##跡': 19714,\n",
       " '问': 7309,\n",
       " '人': 782,\n",
       " '樾': 3575,\n",
       " 'くたさい': 9052,\n",
       " 'bay': 10251,\n",
       " 'opera': 10917,\n",
       " 'ニ': 615,\n",
       " '##缘': 18414,\n",
       " '##殺': 16726,\n",
       " '橡': 3583,\n",
       " '##rin': 13250,\n",
       " '##哋': 14565,\n",
       " '325': 10838,\n",
       " '##枰': 16427,\n",
       " '700': 8389,\n",
       " '##孕': 15154,\n",
       " '##棟': 16534,\n",
       " '1922': 10209,\n",
       " '##岬': 15331,\n",
       " '##♫': 13630,\n",
       " '##鲫': 20893,\n",
       " '##uck': 11971,\n",
       " '##巽': 15409,\n",
       " '79': 8428,\n",
       " '444': 12876,\n",
       " '##ore': 9132,\n",
       " '乔': 730,\n",
       " 'かこさいます': 12835,\n",
       " 'б': 234,\n",
       " '##邯': 19992,\n",
       " '##food': 12973,\n",
       " '弗': 2472,\n",
       " '趨': 6638,\n",
       " '##嗡': 14688,\n",
       " '##擼': 16157,\n",
       " '奪': 1954,\n",
       " '裝': 6172,\n",
       " '2009': 8170,\n",
       " '##舔': 18711,\n",
       " '##轲': 19822,\n",
       " '7866': 12081,\n",
       " '包': 1259,\n",
       " '囚': 1723,\n",
       " '##猗': 17393,\n",
       " '##臃': 18677,\n",
       " '艮': 5678,\n",
       " 'york': 9507,\n",
       " '##寄': 15221,\n",
       " '烏': 4166,\n",
       " '１０': 9198,\n",
       " '教': 3136,\n",
       " '##芙': 18753,\n",
       " '舐': 5652,\n",
       " '菸': 5839,\n",
       " '缝': 5361,\n",
       " '##樹': 16629,\n",
       " '篱': 5075,\n",
       " '遁': 6875,\n",
       " '##均': 14829,\n",
       " '##se': 8417,\n",
       " '１６': 12963,\n",
       " '##歌': 16682,\n",
       " '##shot': 11125,\n",
       " '##泵': 16865,\n",
       " '##溼': 17047,\n",
       " '1952': 9241,\n",
       " '##继': 18383,\n",
       " '##驥': 20772,\n",
       " '越': 6632,\n",
       " 'wear': 12679,\n",
       " '峦': 2287,\n",
       " '##犢': 17360,\n",
       " '##栩': 16471,\n",
       " '##泫': 16859,\n",
       " '##筛': 18090,\n",
       " '唸': 1551,\n",
       " '爭': 4261,\n",
       " '岸': 2279,\n",
       " 'burberry': 11143,\n",
       " '##毙': 16744,\n",
       " '刑': 1152,\n",
       " '##ever': 11531,\n",
       " 'neo': 12169,\n",
       " 'メ': 627,\n",
       " '失': 1927,\n",
       " '夾': 1933,\n",
       " '眠': 4697,\n",
       " '##滓': 17056,\n",
       " '粒': 5108,\n",
       " ...}"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 查看分词器的词典\n",
    "newTokenizer.vocab"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "21128"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tokenizer.vocab_size"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[2769,\n",
       " 3221,\n",
       " 671,\n",
       " 702,\n",
       " 2207,\n",
       " 6793,\n",
       " 3492,\n",
       " 8024,\n",
       " 2769,\n",
       " 3680,\n",
       " 1921,\n",
       " 6963,\n",
       " 1391,\n",
       " 6793,\n",
       " 3492]"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "ids = tokenizer.convert_tokens_to_ids(tokens)\n",
    "ids"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['我', '是', '一', '个', '小', '辣', '椒', '，', '我', '每', '天', '都', '吃', '辣', '椒']"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tokens = tokenizer.convert_ids_to_tokens(ids)\n",
    "tokens\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[101,\n",
       " 2769,\n",
       " 3221,\n",
       " 671,\n",
       " 702,\n",
       " 2207,\n",
       " 6793,\n",
       " 3492,\n",
       " 8024,\n",
       " 2769,\n",
       " 3680,\n",
       " 1921,\n",
       " 6963,\n",
       " 1391,\n",
       " 6793,\n",
       " 3492,\n",
       " 102]"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "ids =  tokenizer.encode(text)\n",
    "ids"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['[CLS]',\n",
       " '我',\n",
       " '是',\n",
       " '一',\n",
       " '个',\n",
       " '小',\n",
       " '辣',\n",
       " '椒',\n",
       " '，',\n",
       " '我',\n",
       " '每',\n",
       " '天',\n",
       " '都',\n",
       " '吃',\n",
       " '辣',\n",
       " '椒',\n",
       " '[SEP]']"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tokens = tokenizer.convert_ids_to_tokens(ids)\n",
    "tokens"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[2769,\n",
       " 3221,\n",
       " 671,\n",
       " 702,\n",
       " 2207,\n",
       " 6793,\n",
       " 3492,\n",
       " 8024,\n",
       " 2769,\n",
       " 3680,\n",
       " 1921,\n",
       " 6963,\n",
       " 1391,\n",
       " 6793,\n",
       " 3492]"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 简便方法，支持去掉前面和后面的特殊标识\n",
    "ids =  tokenizer.encode(text,add_special_tokens=False)\n",
    "ids"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'我 是 一 个 小 辣 椒 ， 我 每 天 都 吃 辣 椒'"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tokens =  tokenizer.decode(ids,skip_special_tokens=True)\n",
    "tokens"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[101, 2769, 3221, 671, 702, 2207, 6793, 3492, 8024, 2769, 3680, 1921, 6963, 1391, 6793, 3492, 102, 0, 0, 0]\n",
      "[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]\n",
      "[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]\n"
     ]
    }
   ],
   "source": [
    "#填充和阶段\n",
    "ids = tokenizer.encode(text,padding='max_length',max_length=20,truncation=True)\n",
    "print(ids)\n",
    "attention_mask = [1 if idx !=0 else 0 for idx in ids]\n",
    "print(attention_mask)\n",
    "token_type_ids = [0]*len(ids)\n",
    "print(token_type_ids)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'input_ids': tensor([[ 101, 2769, 3221,  671,  702, 2207, 6793, 3492, 8024, 2769, 3680, 1921,\n",
      "         6963, 1391, 6793, 3492,  102,    0,    0,    0,    0,    0,    0,    0,\n",
      "            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,\n",
      "            0,    0,    0,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n",
      "         0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0,\n",
      "         0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])}\n",
      "{'input_ids': tensor([[ 101, 6435, 7309,  872, 3297, 4263, 1391, 4638, 7608, 4289, 3221,  784,\n",
      "          720, 8043,  102,    0,    0,    0,    0,    0,    0,    0,    0,    0,\n",
      "            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,\n",
      "            0,    0,    0,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n",
      "         0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,\n",
      "         0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])}\n"
     ]
    }
   ],
   "source": [
    "##### 填充和截断的简便方法#####\n",
    "inputs1 =  tokenizer.encode_plus(\n",
    "    text,  \n",
    "    max_length=40,  \n",
    "    padding='max_length',\n",
    "    return_tensors='pt')\n",
    "inputs2 =  tokenizer.encode_plus(\n",
    "    text2, \n",
    "    padding='max_length',\n",
    "    max_length=40, \n",
    "    return_tensors='pt')\n",
    "\n",
    "print(inputs1)\n",
    "print(inputs2)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 47,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'input_ids': tensor([[ 101, 1856, 1041, 1469, 7348, 3667,  102, 1856, 1041, 1469, 7348, 3667,\n",
       "          102,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0]])}"
      ]
     },
     "execution_count": 47,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 批量处理数据\n",
    "\n",
    "sentences = [\"填充和阶段\",\"填充和阶段\"]\n",
    "# sentences = [\"Hello, my dog is cute\", \"NLP is fun!\"]  \n",
    "# tokenizer(sentences)\n",
    "encoded_inputs = tokenizer.encode_plus(\n",
    "    sentences,\n",
    "    padding='max_length',\n",
    "    max_length=14, \n",
    "    return_tensors='pt',\n",
    "    truncation=True\n",
    "    )\n",
    "\n",
    "encoded_inputs\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 51,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'input_ids': tensor([[ 101, 2769, 4263, 1266,  776,  102, 1266,  776, 2523, 5401,  102,    0,\n",
       "            0,    0],\n",
       "        [ 101, 1856, 1041,  102, 2779, 3171,  102,    0,    0,    0,    0,    0,\n",
       "            0,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0],\n",
       "        [0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],\n",
       "        [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]]), 'offset_mapping': tensor([[[0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [2, 3],\n",
       "         [3, 4],\n",
       "         [0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [2, 3],\n",
       "         [3, 4],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0]],\n",
       "\n",
       "        [[0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0]]])}"
      ]
     },
     "execution_count": 51,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 批量处理数据\n",
    "\n",
    "# sentences = [\"填充和阶段\",\"填充和阶段\",\"填充和阶段\",\"填充和阶段\",\"填充和阶段\",\"填充和阶段\"]\n",
    "sentences = [[\"我爱北京\",\"北京很美\"],[\"填充\",\"截断\"]]\n",
    "encoded_inputs = tokenizer.batch_encode_plus(\n",
    "    sentences,\n",
    "    padding='max_length',\n",
    "    max_length=14, \n",
    "    return_tensors='pt',\n",
    "    truncation=True,return_offsets_mapping=True\n",
    "    )\n",
    "\n",
    "encoded_inputs"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 54,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<bound method BatchEncoding.word_ids of {'input_ids': tensor([[ 101, 2769, 4263, 1266,  776,  102, 1266,  776, 2523, 5401,  102,    0,\n",
       "            0,    0],\n",
       "        [ 101, 1856, 1041,  102, 2779, 3171,  102,    0,    0,    0,    0,    0,\n",
       "            0,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0],\n",
       "        [0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],\n",
       "        [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]]), 'offset_mapping': tensor([[[0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [2, 3],\n",
       "         [3, 4],\n",
       "         [0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [2, 3],\n",
       "         [3, 4],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0]],\n",
       "\n",
       "        [[0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [0, 0],\n",
       "         [0, 1],\n",
       "         [1, 2],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0],\n",
       "         [0, 0]]])}>"
      ]
     },
     "execution_count": 54,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "encoded_inputs.word_ids"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 特殊tokenizer的加载 非官方\n",
    "\n"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.19"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
